import pandas as pd

# Final.csv文件的路径
file_path = "./subway.csv"

# 读取CSV文件
df = pd.read_csv(file_path, encoding="GBK")

# 原始数据行数
original_rows = len(df)

# 1. 删除含有缺失值的行（如果你的数据中有缺失值）
df = df.dropna()
# 删除后的行数
rows_after_dropna = len(df)

# 2. 删除重复项
df = df.drop_duplicates()
# 最终清洗后的行数
cleaned_rows = len(df)

# 统计被清洗的行数
rows_dropped_by_na = original_rows - rows_after_dropna
rows_dropped_by_duplicates = rows_after_dropna - cleaned_rows

print(f"被缺失值删除的行数: {rows_dropped_by_na}")
print(f"被重复项删除的行数: {rows_dropped_by_duplicates}")
print(f"总共被清洗的行数: {original_rows - cleaned_rows}")

# 3. 保存清洗后的数据到新的CSV文件
cleaned_file_path = "subway_all.csv"
df.to_csv(cleaned_file_path, encoding="GBK", index=False)  # 不保存索引